1
Dalla ricorsione all'attenzione: affrontare i limiti del modellamento sequenziale
EvoClass-AI003Lecture 6
00:00

Dalla ricorsione all'attenzione: affrontare i limiti del modellamento sequenziale

Il modellamento sequenziale tradizionale si basava in gran parte su Reti neurali ricorrenti (RNN) e sulle loro varianti con gate (LSTM, GRU). Sebbene rivoluzionarie per compiti precoci di sequenza a sequenza, queste architetture presentano problemi fondamentali di scalabilità quando devono gestire dipendenze estese. L'introduzione dei meccanismi di attenzione ha rappresentato il salto concettuale essenziale necessario per superare questi limiti e rendere possibile lo sviluppo di sistemi NLP moderni ed estremamente efficaci.

1. Il problema delle dipendenze a lungo raggio

Nei RNN, il percorso di dipendenza tra il token $t_i$ e il token $t_j$ deve attraversare tutti i passaggi intermedi in modo sequenziale. Ciò obbliga il segnale del gradiente durante la retropropagazione a moltiplicarsi ripetutamente attraverso le matrici di pesi, causando un rapido deterioramento (gradiente scomparso) del segnale, rendendo quasi impossibile propagare informazioni utili o segnali di errore su grandi distanze nella sequenza. La complessità del percorso è $O(N)$.

2. Il collo di bottiglia del contesto dimensione fissa

Architetture standard encoder-decoder precedenti all'attenzione richiedevano che il significato completo della sequenza di origine, indipendentemente dalla sua lunghezza, fosse compresso in un singolo vettore di dimensione fissa (il vettore di contesto, $C$). Questo collo di bottiglia limita drasticamente la capacità del modello di conservare tutte le informazioni necessarie, specialmente per input lunghi o complessi, causando una perdita critica di informazioni durante la fase di decodifica.

Rappresentazione concettuale
Question 1
Why is the dependency path length in a standard RNN considered a major limitation for long sequences?
Path complexity is $O(1)$.
Path complexity is $O(N^2)$.
Path complexity is $O(N)$, causing vanishing gradients.
It prevents the use of LSTMs.
Question 2
In pre-Attention Seq2Seq models, what component represents the 'information bottleneck'?
The softmax layer.
The recurrent cell (e.g., GRU).
The fixed-size context vector derived from the encoder's final hidden state.
The input embedding layer.
Challenge: Conceptualizing Attention's Advantage
Comparing Structural Complexity
Consider a sequence of length $N$. We want to establish a dependency between token $X_i$ and token $Y_j$.

Contrast the dependency path length required by:
  • Traditional Recurrence (e.g., LSTM)
  • Attention Mechanism (Query-Key comparison)
Step 1
How does Attention fundamentally reduce the structural complexity of establishing distant dependencies?
Solution:
Attention creates a direct, non-sequential connection between any output token $Y_j$ and any input token $X_i$ by calculating a weight based on their vector similarity ($Q_j K_i^T$). The dependency path length is effectively $O(1)$ (a direct look-up), removing the constraint of linear path traversal imposed by recurrence ($O(N)$).